Voici la Boîte à Outils 3 "Extraction Patron"
Le but de la Boîte à Outils 3, c'est d'extraire les patrons présents dans les fichiers étiquetés à l'aide de Cordial et TreeTagger.
________________________________________________________________________________________________________
"CORDIAL"
Afin d'effectuer l'extraction des patrons, j'ai utilisé un script Perl pour les fichiers étiquétés via Cordial.
Voici une partie de celui-ci:
Dans le cadre rouge de l'image du script se trouvent les deux solutions possibles pour l'extraction des patrons. En effet, on a un fichier de patrons différent de l'autre, voici à quoi ils correspondent:
Ici c'est le patron 1 : il correspond à la première ligne du cadre rouge
Ici c'est le patron 2 : il correspond à la deuxième ligne du cadre rouge
A l'aide des deux fichiers de patrons différents, j'ai donc fait deux sorties différentes pour les fichiers Cordial.
Ci-dessous la ligne à écrire dans la fenêtre de commande afin de générer l'extraction des patrons:
perl programmeetiquetage.pl sortie3208.cnr patrons.txt > fichiersortie.txt
perl programmeetiquetage.pl sortie3208.cnr patrons2.txt > fichiersortie.txt
Ci-dessous le fichier contenant le script Perl en entier:
Voici les fichiers de sortie générés par le programme avec les différents patrons (1 et 2) avec la rubrique 3208 :
Fichiers entiers sur les 3 rubriques :
________________________________________________________________________________________________________
"TREETAGGER"
Afin d'extraire les patrons avec les fichiers étiquetés par TreeTagger, j'ai utilisé un script Perl.
Le voici:
Ce dernier s'utilise dans la fenêtre de commande de cette façon:
perl extract-patron-treetagger.pl sortie_3208.xml > sortiefichier.txt
Ci-dessous le fichier contenant le script Perl en entier:
Voici les fichiers de sortie générés par le programme :
__________________________________________
TreeTagger Requêtes XQuery/XPath
cf: Cours XML Documents Structurés
Voici les requêtes qui ont été demandées dans le cours Documents Structurés :
Construire une requête pour extraire les patrons morpho-syntaxiques NOM ADJ
Construire une requête pour extraire les patrons morpho-syntaxiques NOM PRP NOM
Malheureusement je n'ai pas pu intégré mes requêtes ci-dessous à mes différentes rubriques car la structure de mes fichiers XML n'était pas en accord avec la sortie XML voulue par Firefox. De ce fait, j'ai quand même mis les requêtes et les sorties obtenues avec le fichier 3210_tt.xml
Les requêtes :
Les sorties: